Analisando dados musicais com R

utilizando pacotes para processamento de texto

04/12/2024

Oi, eu sou a Bianca!

  • 🎲 Jornalista pela USP, especialista em Jornalismo de Dados, Automação e Data Storytelling pelo Insper
  • Trabalho com jornalismo de dados na Agência Pública
  • 👩🏿‍🔬 Biomédica e mestre em Ciências pela Unifesp
  • ❤️ Amo desenhar, show, sescs e música emo

Objetivos

  • Explorar os pacotes tidytext, wordcloud,
  • Aplicar as funções em um corpus
  • Introduzir técnicas de análise de dados musicais.
  • Aplicar processamento de texto para explorar letras e metadados.
  • Usar pacotes do R para visualizações sobre músicas

Por que analisar texto é importante?

  • Sentimento, temas, frequência de palavras.
  • Música - texto - dado não-estruturado - dado estruturado –> objeto de análise!

Algumas definições

Algumas definições

  • Um corpus é uma coleção de textos usada para análise.
  • Exemplo: Todas as letras de músicas de um artista, um gênero musical ou de um período específico.
  • Um corpus pode ser usado para identificar padrões, como temas recorrentes ou tendências linguísticas.
  • Um token é uma unidade mínima de texto, geralmente uma palavra.

  • Exemplo: Na frase “Fiel como um cão”, os tokens são: “fiel”, “como”, “um”, “cão”.

  • Bigramas são pares consecutivos de palavras em um texto.

  • Exemplo: No verso “Porque chumbo trocado não dói” os bigramas são “Porque chumbo”, “chumbo trocado”, “trocado não”, “não dói”

  • Palavras comuns que geralmente não agregam significado em uma análise, como “o”, “de”, “e”.

  • Exemplo: “Minha vó é show de bola / Aprendeu lá em Angola / Encontrou meu corpo aberto e fechou” - sem as stopwords: “minha vó é bola aprendeu lá angola encontrou meu corpo aberto fechou”

Fontes de dados:

  • APIs (Spotify, Genius, Vagalume, etc.),

  • Planilhas com metadados musicais,

  • Rankings (Billboard, Spotify…)

  • Seus dados!

O que investigar em um dataset musical: artista, album, ano, letras, gênero, popularidade.

Pacotes úteis

  • dplyr (manipulação de dados);

  • text (análise de texto);

  • ggplot2 (visualização);

  • tidytext (NLP para texto);

  • spotifyr (coleta de dados da API Spotify).

Exemplos e referências

tayloR

tayloR

Fluxo de trabalho:

  • Limpeza e tokenização (tidytext);
  • Análise de frequência;
  • Nuvem de palavras e associações;
  • Análise de sentimentos em letras de músicas.

E o que vamos analisar hoje?

maRRom